草庐IT

php - 用 xpath 抓取,报错

全部标签

javascript - 抓取数据、 headless 浏览器和 Python

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion所以我是一名CS学生,正在尝试学习网络抓取以及随之而来的所有该做和不该做的事情。在弄乱了iMacros和其他一些数据抓取“工具”之后,我转向了Python,这是一种我当时并不熟悉的语言。我了解了BeautifulSoup和urllib2,并通过stackoverflow和其他一些论坛学习了我的方法。现在,利用我目前获得的知识,我可以抓取大多数静态网页。然而,我们都知道静态页面的时代已经结束,现在即使是普通

javascript - Web 抓取具有动态 javascript 内容的网站

所以我使用python和beautifulsoup4(我没有绑定(bind))来抓取网站。问题是当我使用urlib获取页面的html时,它不是整个页面,因为其中一些是通过javascript生成的。有什么办法可以解决这个问题吗? 最佳答案 基本上有两个主要选项可以继续:使用浏览器开发工具,查看哪些ajax请求将加载页面并在脚本中模拟它们,您可能需要使用json将响应json字符串加载到python数据结构中的模块使用selenium等工具打开一个真正的浏览器。浏览器也可以是“headless”的,参见HeadlessSelenium

javascript - Jquery 获取每个 div 的子子 div 并将信息抓取到数组中

我有一些看起来像这样的html我想将每个sub_maindiv信息提取到javascript中的数组中。到目前为止,我有这个作为我的jquery代码$('#main').find('.sub_main').each(function(){alert('hi');});警报只是一个测试,它应该显示“hi”两次。但这是行不通的。我也不清楚如何将两个输入存储在javascript数组中。任何帮助都会很棒!谢谢, 最佳答案 vararray=$('#maininput').map(function(){return$(this).val()

javascript - 如何抓取无限滚动页面?

我正在尝试构建可以从具有无限滚动的页面中抓取内容的东西。但是,我无法从第一个“中断”下方获取内容。我该怎么做? 最佳答案 无限滚动几乎总是通过使用AJAX或相关技术在JavaScript中完成的。因此,您的网络爬虫获取HTML并解析它是不够的;它必须下载并执行javascript,或者至少扫描它以查找AJAX调用。执行完整的javascript可能是最好的(即最能保证工作),但也可能是最难做到的。扫描AJAX请求的javascript和/或寻找执行AJAX调用的函数然后进行DOM操作可能是最简单的(相对于完整的JS执行)

javascript - 如何检测由新的抓取标准发起的请求?一般来说,我应该如何检测 AJAX 请求?

在服务器上,知道传入请求是AJAX是很有用的。大多数js库使用XMLHttpRequest,因此提供HTTP_X_REQUESTED_WITH:XMLHttpRequest,但Chrome的实现和Github'spolyfill都没有提供新的fetch使用类似的header。那么如何检测请求是AJAX请求呢?为什么标识其发起者的请求没有通过fetch和XMLHttpRequest标准强制执行?是否应该使用其他东西来做出决策(例如,客户提供他们期望响应的内容类型)? 最佳答案 查看thisissue在Github'spolyfill上

深入解析 pycocotools 的安装和运行报错 && 安装 mmcv-full and mmpycocotools

pycocotools库的主要作用:下载coco数据集,并使得操作数据集的数据更加方便。MMCV是一个面向计算机视觉的基础库,它支持了很多开源项目。好的习惯:学会在官方文档中解决的问题。目录一、安装VisualStudio2022(其他版本也可以)二、下载pycocotools三、解析Why?四、安装mmpycocotools库(mmcv有用到)五、安装mmcv-full库(1)介绍mmcv(2)安装mmcv一、安装VisualStudio2022(其他版本也可以)直接去官方下载:VisualStudio2022IDE-适用于软件开发人员的编程工具(microsoft.com)注意:网上有很多

javascript - echo'd PHP 编码通过 AJAX 调用的 JSON 返回什么?

我想我在这里遗漏了一些东西:我使用AjAX从数据库中获取一些数据并将其以JSON格式发回$jsondata=array();while($Row=mysql_fetch_array($params)){$jsondata[]=array('cat_id'=>$Row["cat_id"],'category'=>$Row["category"],'category_desc'=>$Row["category_desc"],'cat_bgd_col'=>$Row["cat_bgd_col"]);};echo("{\"Categories\":".json_encode($jsondata)

javascript - 在 R 中抓取 javascript 网站

我想从这个url中抓取比赛时间和日期:http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary通过使用chrome开发工具,我可以看到这似乎是使用以下代码生成的:01:20AM,October29,2014但这不在源html中。我认为这是因为它的java(如果我错了请纠正我)。我如何使用R抓取这些信息? 最佳答案 因此,RSelenium不再是唯一的答案。如果您可以安装PhantomJS二进制文件(从这里获取phantomjs二进制文件:h

javascript - Flow react native导入图片报错cannot resolve module RelativeImageStub

我是flow的新手,我在react-native中导入图像时遇到了flow错误:importEditIconfrom'../../../../../assets/images/edit-icon.png';我收到这个错误:"cannotresolvemoduleRelativeImageStub"这是我的流程配置,其中有RelativeImageStubmodule.name_mapper='^[./a-zA-Z0-9$_-]+\.\(bmp\|gif\|jpg\|jpeg\|png\|psd\|svg\|webp\|m4v\|mov\|mp4\|mpeg\|mpg\|webm\|aa

javascript - PHP的退出;在 JavaScript 中?

相当于PHP的退出是什么;在Javascript/jQuery中?我需要根据某些条件提前停止我的脚本...我从搜索中找到的唯一答案是停止提交表单... 最佳答案 你可以试试:throw"stopexecution";使用return将跳过当前函数,这就是为什么throwing更类似于PHPexit(); 关于javascript-PHP的退出;在JavaScript中?,我们在StackOverflow上找到一个类似的问题: https://stackover